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摘 X. [目的 /意义 ] 新 兴 技 术 主题 识别 不 仅 有 助 于 及 时 跟踪 技术 发 展 动态 ,更 能 尽早 捕捉 技术 领域 未 来 的 发 展 契 机 和 可 


能 的 变化 趋势 。 梳 理 新 兴 技 术 主 题 识 别 的 定量 研究 方法 ,并 对 其 优 缺点 进行 比较 ,可 以 为 新 兴 技 术 主 题 识别 方法 
的 改进 和 完善 提供 参考 。[ 方 法 /过 程 ] 首先 对 “新 兴 技 术 ”“ 新 兴 技 术 主 题 识别 ”等 概念 的 内 涵 进 行 辨 析 ; 然后 调 
研 和 系统 梳理 国内 外 新 兴 技 术 主 题 识别 的 定性 和 定量 研究 方法 ,重点 关注 以 文献 计量 和 数据 挖掘 为 主 的 定量 研 
究 方法 ,并 将 其 划分 为 三 类 :主题 词 或 文献 统计 方法 、 引 文 网 络 聚 类 方法 和 文本 挖 气 分 析 方 法 ;最 后 综合 分 析 各 类 
研究 方法 在 技术 主题 抽取 、 新 兴 技 术 主 题 识别 指标 体系 构建 方法 有 效 性 验证 等 方面 的 异同 和 存在 的 缺陷 ,以 及 
对 方法 改进 的 初步 思考 。[ 结果 /结论 ] 三 类 方法 在 新 兴 技 术 主题 识别 的 主要 步骤 上 各 有 特点 和 优 劣 , 均 有 进一步 
完善 的 空间 ,未 来 可 以 探索 利用 深度 学 习 等 技术 进行 技术 主题 的 准确 抽取 ,并 构建 更 加 全 面 、 系 统 的 新 兴 技 术 主 
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题 识 别 指标 体系 ,以 及 基于 机 器 学 习 进 行 更 加 严格 的 方法 有 效 性 验证 。 
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量 的 研究 工作 ,基于 文献 计量 和 数据 挖 据 的 定量 分 析 


生物 技术 和 其 他 学 科 基础 之 上 的 新 兴 技 术 不 断 出 现 和 
以 重 发 展 ,这 些 技术 的 出 现 与 发 展 不 仅 改 变 了 传统 产业 
I 恬 展 形态 ,而 且 改变 了 人 们 的 意识 .观念 ,生活 方式 以 
社会 经 济 生产 方式 ,对 人 类 社会 的 影响 越 来 越 显著 和 
深远 。 监 测 全 球技 术 前 沿 变化 .识别 新 兴 技 术 不 仅 能 及 
时 跟踪 技术 发 展 动态 ,更 能 尽早 捕 提 未 来 的 发 展 契 机 和 
可 能 的 变化 趋势 ,这 对 一 个 国家 或 地 区 的 未 来 发 展 至 关 
重要 。 同 时 ,新 兴 技术 识别 还 可 以 为 政策 制定 者 企业 、 
研究 机 构 和 研究 人 员 提 供 科技 研究 趋势 和 优先 技术 领域 
的 变化 方面 的 信息 ,从 而 为 决策 者 寻找 资助 的 技术 领域 和 
资助 对 象 提供 支撑 ;帮助 企业 和 研究 机 构 决定 其 未 来 的 研 
究 定位 和 优先 领域 ,识别 潜在 的 合作 对 象 ;帮助 研究 人 员 
及 时 了 解 技术 领域 发 展 的 新 动向 ;帮助 投资 机 构 通过 对 新 
兴 技 术 领域 和 关键 创新 者 的 早期 投资 而 获得 回报 。 

自 20 世纪 90 年 代 中 期 “新 兴 技 术 "概念 提出 以 
来 ,学 者 们 就 如 何 寻 找 、 发 现 和 识别 新 兴 技术 开展 了 大 


是 常用 的 研究 方法 。 本 文 在 梳理 这 些 研 究 方法 的 基础 
上 对 其 优 缺 点 进行 比较 ,以 期 为 改进 和 完善 新 兴 技术 
主题 识别 方法 提供 参考 。 

2 相关 概念 

20 世纪 90 年 代 中 期 ,美国 宾夕法尼亚 大 学 沃 顿 商 
学 院 的 “新 兴 技 术 管 理 研 究 计划 ”首次 提出 “新 兴 技 术 
( Emerging Technology) ”概念 。 沃 顿 商 学 院 的 研究 人 员 
认为 ,新 兴 技 术 指 “建立 在 科学 基础 上 的 ,可 能 创立 一 
个 新 行业 或 改变 某 个 老 行业 的 创新 ”, 他 们 认为 新 兴 
术 不 仅 包括 产生 于 根本 性 创新 的 技术 ,例如 生物 制药 、 
数字 成 像 高 温 超 导体 、 微 型 机 器 人 和 笔记 本 电脑 等 ， 
还 包括 通过 集成 多 个 过 去 独立 的 研究 成 果 而 更 具 创 新 
意义 的 技术 ,例如 核磁 共振 成 像 、 传 真 .电子 金融 和 互 
联网 等 技术 。“ 新 兴 技 术 " 概念 提出 后 ,国内 研究 人 
REAR” FRU ,徐建国 "等 以 及 国外 研究 人 员 
S. Cozzens?' .A，Breitzman 等 ' 给 出 了 不 同 定义 ( 见 表 
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1) ,如 鲁 若 思 等 ”认为 “新 兴 技 术 是 一 种 新 观念 .新 方 


速 增长 ;在 转变 过 程 中 或 变 为 新 的 东西 ;尚未 充分 显现 


法 、 新 发 明 , 它 以 科学 为 基础 ,并 能 够 创造 一 个 新 的 行 
业 或 者 能 够 改变 一 个 现 有 行业 并 能 对 经 济 结构 产生 重 
大 影响 ”,S，Cozzens 等 ”在 分 析 了 近 2 000 篇 涉及 新 
兴 技 术 文 章 的 基础 上 ,将 新 兴 技 术 定 义 为 “是 快速 增 
长 新兴、 具有 未 开发 的 市 场 潜 力 和 高 科技 基础 的 技 
术 , 这 种 技术 有 巨大 的 潜力 ,但 尚未 表现 出 价值 或 在 业 
界 达 成 共识 ” ,他 认为 新 兴 技 术 具 有 以 下 四 个 特征 : 快 


的 市 场 或 经 济 潜力 ;与 科学 研究 的 联系 日 益 紧 密 。 总 
结 起 来 ,新 兴 技 术 是 这 样 一 种 技术 , 它 是 新 出 现 的 、 发 
展 速度 较 快 ,通常 以 高 科技 为 基础 ,可 能 开辟 新 的 技术 
和 科学 领域 ,具有 巨大 的 市 场 潜力 ,可 能 创造 一 个 新 行 
业 或 者 改变 某 个 老 行业 ,但 在 现 阶 段 仍然 具有 不 确定 
性 。 


表 1 已 有 研究 中 对 “新 兴 技 术 ” 的 定义 


“新 兴 技 术 ” 的 定义 


立 一 个 新 行业 或 改变 某 个 老 行业 的 创新 


fume 是 一 种 新 观念 .新 方法 .新 发 明 , 它 以 科学 为 基础 ,并 能 够 创造 一 个 新 的 行业 或 者 能 够 改变 一 个 现 有 行业 


具有 潜在 产业 前 景 和 高 度 不 确定 性 ,正在 涌现 并 可 能 产生 


巨大 变革 的 技术 


展 的 .对 经 济 结构 产生 重要 


,可 能 开辟 新 的 技术 和 科学 领域 


ES 
B 


向 的 高 新 技术 


发 的 市 场 潜力 和 高 科技 基础 的 技术 ,这 种 技术 有 巨大 的 潜力 ,但 尚未 表现 出 价 


特点 是 随 着 时 间 的 推移 ,存在 一 定 程 度 的 一 致 性 ,并 对 社会 经 济 领 


最 突出 的 影响 在 于 未 来 ,在 出 现 阶 段 仍然 具有 不 确定 性 和 模糊 性 


快速 发 展 的 根本 性 创新 技术 ,具有 影响 未 来 经 济 和 社会 发 展 的 潜力 


时 间 机 构 或 研究 人 员 

20 世纪 90 年 代 中 期 ”美国 宾 儿 法 尼 亚 大 学 上 建立 在 科学 基础 上 的 ,可 能 人 

2005 年 

并 能 对 经 济 结构 产生 重大 影响 

2005 年 李 什 明 [3] 
TS 2010 年 FRU] 那些 新 近 产 生 甚 至 正在 发 
Le 2012 年 S. Cozzens L5] 快速 增长 新兴 .具有 未 开 
CN 值 或 在 业界 达成 共识 
N 2015 年 A. Breitzman [6] 新 兴 技术 有 高 速 发 展 的 潜力 
e 2015 年 D. Rotolol8] 一 种 全 新 的 .相对 快速 发 展 的 技术 , H 
© 域 有 相当 大 的 潜在 影响 ,但 基 
ep 2018 年 徐建国 [4 知识 生产 过 程 中 产生 的 相对 
Q.. EVA Mo» € EE Zx &ji Jal MEE f an 
CD 新 兴 技 术 与 新 兴 MII 或 颠覆 性 技术 


“ 航 沿 技术 ”等 概念 有 诸多 相似 之 初 ,但 又 存在 区 别 。 
“<i 究 领域 "一 般 指 新 兴 的 科学 研究 ,更 多 是 对 新 
兴 各 学 问题 的 探索 和 理论 研究 ,与 "新兴 技 术 " 相 比 ， 
其 市 场 应 用 的 要 求 较 低 , 对 经 济 社会 的 影响 可 能 较 小 ， 
值 随 着 科学 技术 的 飞速 发 展 ,科学 和 技术 之 间 的 界限 
越冬 越 模 糊 , 所 以 一 些 研究 并 未 对 “新 兴 研 究 领域 "和 
“攻取 技术 ”进行 严格 区 分 ,实证 分 析 的 领域 通常 既 包 
含 万 而 研 究 也 包含 应 用 研究 和 技术 研究 。 与 颠 柳 性 技 
AR .前 沿 技术 相 比 ,新 兴 技术 的 不 确定 性 更 高 ,其 拥有 
的 商业 价值 只 是 潜在 的 ,并 未 充分 显现 。C. M. Chris- 
tensen” 指出 , 当 新 的 技术 创新 推翻 了 市 场 上 现 有 的 主 
导 技术 时 ,被 称 为 “颠覆 性 技术 ( Disruptive Technolo- 
gy)”。 前 沿 技术 指 高 技术 领域 中 具有 前 用 性 、 先 导 性 
和 探索 性 的 重大 技术 ,是 未 来 高 技术 更 新 换代 和 新 兴 
产业 发 展 的 重要 基础 。 
2.2 “新 兴 技 术 主题 识别 ”及 相关 概念 

技术 主题 没有 明确 的 定义 ,不 同 研究 根据 各 自 的 
研究 目的 和 问题 ,对 其 有 不 同 的 理解 ,通常 指 某 技术 领 
域 的 分 支 技术 领域 .技术 方向 或 技术 问题 ,研究 的 粗细 
粒度 并 不 一 致 。 在 已 有 的 定量 研究 中 , 一般 用 论文 或 
专利 的 一 组 关键 词 /词组 或 一 组 文献 来 揭示 技术 主题 
的 核心 内 容 ""。 专 利文 献 是 技术 分 析 的 重要 信息 源 


之 一 ,也 是 研究 中 最 常用 的 信息 源 , 它 集 技术 信息 、 法 
律 信 息 和 经 济 信 息 于 一 身 , 具 有 新 颖 、 易 获取 规范 、 易 
仿 索 ,时 间 序 列 长 等 特点 。 随 着 科学 和 技术 之 间 的 界 
限 越 来 越 模 糊 , 技 术 主 题 和 研究 主题 的 联系 越 来 越 密 
切 ,因此 也 有 很 多 学 者 同时 采用 论文 和 专利 文献 作为 

与 “新 兴 技 术 主 题 识别 ”相关 的 概念 有 “新 兴 主 题 
监测 ”( Emerging Topic Detection) “新 兴 研 究 前 沿 识 
别 ”( Emerging Research Fronts Identification) , “新 兴 趋 
势 探测 ”( Emerging Trends Detection) , “ 突 发 词 监测 ” 
(Burst Word Detection ) 和 “新 事件 探测 ”( New Event 
Detection) 等 。 这 些 研 究 的 共同 特点 是 识别 或 探测 最 
新 科学 研究 活动 中 已 出 现 但 尚未 得 到 广泛 认识 的 新 兴 
话题 或 主题 。“ 新 兴 技 术 主 题 识别 "一般 指 对 技术 领 
域 中 新 出 现 的 分 支 技术 领域 .方向 或 主题 的 识别 ,与 其 
它 相关 研究 的 识别 对 象 有 所 不 同 。 
3 新兴 技术 主题 识别 方法 

科学 技术 的 新 兴 主 题 演 化 、 监 测 和 识别 一 直 是 政 
府 ,企业 和 科学 家 感 兴 趣 的 研究 问题 ,政府 对 这 方面 研 
究 的 资助 层出不穷 。20 世纪 90 年 代 未 ,美国 国防 高 级 
研究 计划 局 (DARPA ) 实 施 了 “主题 监测 和 跟踪 (TDT) 
Tl" 并 持续 运行 了 数 年 ”。2010 年 《美国 竞争 
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法 》 "明确 提出 将 新 兴 和 创新 领域 的 识别 作为 一 项 工 
作 目 标 。2011 年 ,美国 国家 情报 局 局 长 办 公 室 的 情报 
先进 研究 计划 署 (IARPA ) 资助 的 “科学 展望 前 瞻 计 划 
(FUSE) "' 旨 在 开发 一 套 自动 化 方法 ,使 用 科学 技术 
和 专利 文献 中 的 信息 以 系统 .连续 全面 地 评估 新 兴 技 
术 。 欧 盟 的 PromTech mi EU 通过 论文 文献 分 析 来 识 
别 新 兴 技 术 。 

识别 新 兴 技 术 或 新 兴 技 术 主 题 的 方法 主要 分 为 两 
大 类 ,一 是 以 专家 主观 判断 为 主 的 定性 研究 方法 ,二 是 
利用 文献 计量 ,数据 挖 气 等 对 论文 专利 文献 进行 定量 
研究 的 方法 。 定 性 方法 包括 德尔 菲 法 .专家 头脑 风暴 
法 .技术 路 线 图 、 情 景 分 析 、TRIZ 方法 等 ,如 欧盟 委员 
会 联合 研究 中 心 (JRC) 的 技术 预测 研究 所 (IPTS ) 开发 
一 种 方法 (IPTS-TIM) ”, 可 以 通过 评价 技术 的 商业 
化 兆 力 ,对 现 有 和 未 来 技术 进行 识别 ,支持 技术 转让 过 
fis. M. Tseng 等 "提出 将 情景 规划 法 德尔 非法 与 


援外 管 代 模型 相 结合 识别 新 兴 技术 ; 谈 角 等 ”结合 技 
术 戏 线 图 与 实物 期 权 方法 以 识别 和 选择 新 兴 技术 ; 魏 
国 驰 "利用 专家 打分 法 对 新 兴 技 术 进行 了 识别 。 随 
着 但 息 的 爆发 式 增长 和 计算 机 技术 的 发 展 , 越 来 越 多 
的 党 者 开始 探索 基于 论文 ,专利 等 文献 数据 的 定量 分 
本: 为 专家 的 判断 提供 辅助 ,弥补 专家 判断 主观 性 较 强 
的 合 陷 。 本 文 重点 关注 新 兴 技 术 主题 识别 的 定量 研究 
方 滨 , 并 根据 各 方法 在 分 析 中 所 关注 的 文献 特征 和 属 
由 不 同 将 其 分 为 三 类 :中 主题 词 或 文献 统计 方法 ;@@ 引 
文 网 络 聚 类 方法 ;@ 文 本 挖 气 分 析 方 法 。 第 一 类 方法 
主要 关注 文献 关键 词 /主题 词 和 文献 本 身 的 数量 特征 ; 
第 加 类 方法 重 在 以 文献 之 间 的 引用 关系 为 基础 ;第 三 
类 则 深入 文本 内 容 , 揭 示 其 语义 内 涵 和 关联 。 三 类 方 
法 所 涉及 文献 特征 和 属性 的 不 同 使 得 它们 在 新 兴 技 术 
主题 识别 过 程 的 技术 主题 抽取 识别 指标 体系 构建 和 
方法 有 效 性 验证 等 环节 存在 诸多 差异 。 
3.1 主题 词 或 文献 统计 方法 

该 类 方法 通常 根据 已 有 的 论文 .专利 分 类 体系 或 
关键 词 /词组 检索 获取 技术 领域 或 主题 ,并 以 论文 E 
利文 献 或 其 中 的 主题 词 / 秘 对 其 进行 表示 ,进而 根据 主 
题词 或 文献 数量 随时 间 的 变化 等 特征 识别 出 新 兴 的 技 


bench"? TH, M. Bengisu ”通过 关键 词 / 组 检索 
获得 材料 科学 与 工程 主要 分 支 领域 的 论文 和 专利 文 
献 , 对 比 各 分 支 领域 论文 和 专利 数量 随时 间 的 增长 , 提 
取出 了 其 中 呈 快 速 发 展 态势 的 新 兴 技 术 领 域 。E. 
Schiebel " sl I. Roche "*! 等 结合 论文 关键 词 的 出 现 频 
次 ,TF-IDF {E 基尼 系数 将 其 划分 为 不 寻常 的 词 既定 
词 和 跨 领 域 的 词 ,反映 这 些 词 在 其 他 技术 领域 的 扩散 
情况 ,以 此 来 识别 新 兴 技 术 。T. U. Daim 4$ ^ 结合 专 
利 分 析 与 情景 分 析 、 增 长 曲线 分 析 方 法 ,对 新 兴 技 术 进 
行 识别 。 
3.2 引文 网 络 聚 类 方法 

论文 或 专利 文献 之 间 的 引用 关系 能 在 一 定 程 度 上 
反映 其 内 容 和 主题 的 相关 性 ,该 类 方法 通过 对 论文 或 
专利 的 直接 引文 网 络 . 引 文 夸 合 网 络 或 共 被 引 网 络 进 
行 聚 类 分 析 , 将 内 容 或 主题 相近 的 论文 或 专利 聚集 在 
一 起 形成 一 个 技术 主题 ,同时 利用 文献 之 间 的 引用 关 
系 测度 主题 的 演变 路 径 和 趋势 ,并 通过 一 系列 指标 识 
别 新 兴 技术 主题 。Y.，Kajikawa 等 ”对 论文 文献 的 直 
接 引 文 网 络 进行 聚 类 分 析 以 跟踪 能 源 领 域 的 新 兴 技 术 
变化 ,用 每 个 簇 中 论文 的 平均 出 版 年 作为 识别 新 兴 技 
术 主 题 的 指标 。H. Small 等 ”结合 共 被 引 网 络 聚 类 
和 直接 引文 网 络 聚 类 方法 识别 出 具有 新 颖 性 和 快速 增 
长 的 科技 主题 。J. Hoperoft 等 ”采用 引文 耦合 分 析 方 
法 识别 了 计算 机 领域 的 若干 新 兴 主 题 。P，Erdi 等 
以 目标 领域 中 各 项 专利 被 其 他 领域 专利 引用 的 情况 为 
基础 对 目标 领域 专利 集 展开 聚 类 分 析 , 提 取出 其 中 的 
子 技术 集 , 通 过 分 析 这 些 子 技术 集 在 时 间 维 度 上 的 变 
化 ,捕捉 到 新 兴 技 术 的 出 现 和 发 展 轨迹 。A.， Breitzman 
等 中 根据 “热点 专利 ” 间 的 共 被 引 关系 ,对 “热点 专利 ” 
及 引用 “热点 专利 ”的 “下 一 代 专 利 ” 进 行 了 聚 类 ,并 借 
助 专利 权 人 中 公共 部 门 比例 、 科 学 指数 .原创 性 指数 和 
参考 指数 等 指标 对 聚 类 结果 进行 评价 ,提取 出 了 其 中 
HIERE. S. Zhang 等 ”在 专利 直接 引文 网 
络 聚 类 分 析 基 础 上 ,结合 网 络 分 析 算 法 进行 太阳 能 》 
伏 领 域 的 新 兴 技术 主题 识别 。 李 荷 等 2 依据 新 兴 技 
术 和 专利 文献 的 核心 特征 ,建立 了 基于 专利 引文 耦合 
聚 类 的 新 兴 技 术 识别 模型 及 其 相关 指标 体系 ,并 以 美 


术 主 题 。 具 有 代表 性 的 方法 是 机 Kleinberg 的 突 发 监 
测算 法 „J. Kleinberg 使 用 无 限 状态 自动 机 对 时 间 序 
列 数据 进行 建 模 ,时 间 序 列 数据 状态 的 转变 标志 着 突 
发 事件 的 出 现 , 该 方法 最 初 用 于 分 析 新 闻 文 章 等 数据 
流 ,后 来 被 广泛 应 用 于 新 兴 技 术 识 别 的 相关 研究 ， 
并 已 被 纳入 诸如 Citespace TI?! SCI2 和 Network Work- 


lin. 


国 专利 与 商标 局 授权 专利 数据 库 为 数据 源 , 对 纳米 技 
术 领 域 进行 了 实证 分 析 。 
3.3 文本 挖掘 分 析 方法 

随 着 数据 挖 据 和 文本 分 析 等 计算 机 技术 的 发 展 ， 
越 来 越 多 的 学 者 尝试 采用 这 一 类 方法 进行 技术 发 展 趋 
势 分 析 和 新 兴 技 术 主 题 的 识别 , 常 采 用 的 方法 有 “ 主 谓 
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TE” ( Subject-Action-Object ,简称 SAO ) 结构 抽取 、 向 量 
空间 模型 .LDA 主题 模型 .机 器 学 习 等 。J Kim 等 
通过 文本 挖 气 和 决策 树 的 方法 进行 技术 预测 ,从 论文 
作者 、 期 刊 .所 属 领 域 ,专利 的 专利 权 人 、 所 属 领 域 等 字 
段 抽 取 能 代表 技术 主题 领域 的 特征 。S. Choi J. 
Yoon ” Æ A Z. Xiao ”等 基于 专利 的 SAO 结构 
语义 分 析 法 识别 新 兴 技 术 , 专 利 的 SAO 结构 即 “ 主 请 
宾 " 结 构 , 可 以 反映 专利 技术 的 功能 特征 。S.， Choi 等 
通过 构建 名 词 .动词 在 SAO 结构 中 的 共 现 网 络 ,基于 
社会 网 络 分 析 的 节点 度数 、 中 心性 等 指标 进行 技术 发 
展 趋 势 的 分 析 和 新 兴 技 术 主 题 识别 。J. Yoon 和 李 欣 
等 通过 计算 SAO 结构 的 相似 度 进 而 获得 专利 的 相似 
BE ,以 此 构建 专利 网 络 ,再 辅 以 离 群 节点 分 析 或 聚 类 分 
本 识别 新 兴 技术 主题 。Z，Xiao RA EAI SAO 
结构 分 析 等 文本 挖掘 方法 ,结合 技术 路 线 图 和 专家 狮 


主题 的 识别 。K. I Filippovich 等 ”通过 机 器 学 习 \ 本 
体 挖掘 和 实体 关联 技术 进行 农业 和 食品 领域 的 新 兴 
术 识 别 。P. Yu 等 ”利用 自 组 织 地 图 识别 新 兴 技 术 主 
题 。 国 内 学 者 王 凌 燕 等 ”构建 了 工业 生物 领域 的 专 
利 高 频 主 题词 (题名 关键 词 ) 共 词 网 络 , 并 进行 聚 类 分 
Ar ,获得 9 个 技术 主题 ,再 通过 一 系列 指标 判断 新 兴 
术 主 题 。 
4 新 兴 技 术 主 题 识 别 方法 述评 

上 述 三 类 新 兴 技 术 主题 识别 方法 均 涉 及 目标 领域 
确定 .数据 集 构建 .技术 主题 抽取 、 识 别 指标 体系 构建 、 
方法 有 效 性 验证 等 步骤 ,它们 主要 在 技术 主题 抽取 VA 
别 指标 体系 构建 以 及 方法 有 效 性 验证 上 存在 差异 。 本 
文通 过 构建 二 维 坐标 图 比较 三 类 方法 在 主要 步骤 上 的 
异同 , 纵 坐 标 表 示 新 兴 技 术 主 题 识别 的 三 类 方法 , 横 坐 


上 晰 识别 了 固体 脂 质 纳米 粒子 领域 的 潜在 创新 和 商业 应 
ÉNE E JRURCU cu 等 采用 LDA 模型 进行 
FER 3 BUE E RARR AERA F 
主题 的 概率 分 布 ,一 个 主题 表示 成 若干 词 的 概率 分 布 ， 
从 根基 而 上 结合 一 系列 指标 和 专家 判断 进行 新 兴 技术 
N 


新 兴 技术 主 


标 表 示 新 兴 技 术 主题 识别 的 三 个 主要 步骤 ( 见 图 1)。 
三 类 方法 在 技术 主题 抽取 上 的 区 别 最 为 明显 ,在 识别 
指标 体系 构建 上 各 有 侧重 ,但 也 有 共同 采用 的 指标 ,在 
方法 有 效 性 验证 方面 共性 最 大 ,三 类 方法 在 各 识别 步 
又 上 各 有 优 劣 ,笔者 将 分 别 进行 分 析 和 展望 。 


题 识别 方法 
CN TUA > SAO 结构 中 词 的 关系 > 构建 训 
mu " x FE 和 变化 练 集 和 
文本 控 ; 
> p pn 词 的 共 现 关系 : 社 | > 与 已 知 新 兴 技 术 主题 测试 集 ， 
"ge^ 共 词 网 络 聚 类 、SAO 结构 、: E 的 相似 度 比 较 通过 评 
DC 向 量 空间 模型 (VSMW) 和 络 Aiai 
LDA 主题 模型 等 分 
© 析 证 
c d 
- | T| > pie 
c 引文 网 络 Es 间或 专利 授权 时 间 
RATE : > 篮 中 论文 或 专利 文献 
© 直接 引文 网 络 、 共 被 数量 变化 
引 网 络 和 引文 欧 合 
网 络 聚 类 
Pe a > 论文 、 专 利 或 主题 记 
XE BR f n X B Inti 
主题 词 或 广 Aeee 数量 变化 
献 统计 方法 IURE 
bo 或 Scopus 的 其 天 分 : 
、 国 际 专利 分 类 等 > 新 兴 技术 主 
技术 主题 提取 识别 指标 体系 构建 方法 有 效 性 验证 题 识别 步骤 


图 1 新 兴 技 术 主题 识别 方法 比较 


4.1 技术 主题 抽取 

主题 词 或 文献 统计 方法 主要 基于 已 有 分 类 体系 或 
关键 词 / 词 组 检索 获得 论文 或 专利 数据 的 主题 划分 ,已 
有 分 类 体系 包括 Web of Science (WoS) 或 Scopus 数据 


用 关系 . 共 被 引 关系 和 引文 耦合 关系 三 种 ” ” ,该 方 
法 与 基于 已 有 分 类 体系 的 方法 相 比 ,揭示 了 单 篇 文献 
之 间 的 关系 ,能 够 反映 技术 的 动态 变化 ,但 也 存在 一 些 
缺陷 ,如 引用 的 动机 具有 多 样 性 ,有 引用 关系 的 文献 之 


库 的 论文 期 刊 分 类 .国际 专利 分 类 等 ,该 方法 采用 通用 
的 分 类 方法 , 易 获 得 认可 ,但 难以 反映 科学 研究 和 技术 
发 展 的 动态 变化 。 引 文 网 络 聚 类 方法 主要 根据 论文 或 
专利 之 间 的 引用 关系 构建 技术 主题 ,包括 基于 直接 引 


间 并 不 一 定 具 有 主题 上 的 相似 性 ,而 且 引 用 发 生 在 文 
献 发 表 之 后 ,存在 时 清 问 题 。 文 本 控 据 分 析 方 法 通常 
根据 文本 内 容 或 词 之 间 的 共 现 关系 构建 技术 主题 ,如 
上 文中 提 到 的 共 词 网 络 聚 类 方法 ,SAO 结构 向量 空间 
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模型 (VSM) LDA 主题 模型 等 ,这 一 类 方法 基于 目前 
快速 发 展 的 数据 挖掘、 深度 学 习 等 技术 ,对 文本 内 容 进 
行 深度 揭示 ,能够 更 准确 地 抽取 技术 主题 ,但 也 有 不 断 
完善 的 空间 。 向 量 空间 模型 基于 词 频 进行 计算 ,但 词 
页 难以 准确 反映 词 的 语义 和 词 间 关系 ,以 此 构建 的 向 
量 也 难以 准确 地 测度 文本 的 主题 内 容 。 目 前 有 一 些 研 
究 对 向 量 空间 模型 进行 改进 ,主要 是 采用 外 部 词典 ,如 
WordNet 等 ,对 词 的 语义 相似 度 进行 度量 ,并 结合 TF- 
IDF 算法 进行 文本 表示 和 分 类 ,这 种 方法 仍然 难以 根 
据 词 的 上 下 文 信息 准确 度量 词 的 含义 “- 外 。LDA 主 
题 模 型 "方法 是 用 来 在 一 系列 文档 中 发 现 抽象 主题 
的 一 种 统计 模型 ,把 每 篇 文档 表示 成 所 属 主题 的 概率 
分 布 ,而 每 个 主题 表示 成 一 组 词 的 概率 分 布 ,但 概率 分 
布 表示 仅仅 描述 语 料 中 的 共 现 统计 关系 ,并 不 是 文本 
特 弓 表示 的 最 好 选择 ,通常 难以 从 一 组 词 判 断 出 确切 


SE 


~u 


的 主 


新 兴 技术 主题 识别 指标 体系 构建 
回 在 识别 指标 体系 构建 上 ,三 类 新 兴 技 术 主题 识别 
双 涉 各 有 侧重 。 主 题词 或 文献 统计 方法 通常 采用 论文 
或 全 利文 献 .主题 词 的 数量 变化 指标 ,如 M. Bengisu 
等 局 采用 论文 和 专利 数量 变化 指标 , Prdi™ LE. 
gsbel 等 5 基于 关键 词 的 出 现 频次 ,TFIDF 值 和 基 
咸 半数, 这些 指 标本 质 上 反映 了 文献 和 主题 词 数量 的 
AP. 引文 网 络 聚 类 方法 采用 的 指标 更 加 多 样 ,如 聚 
交锋 中 论文 发 表 时 间或 专利 授权 时 间 、 秘 中 论文 或 专 
利 次 量 的 变化 等 ,Y，Kajikawa 等 2 利用 主题 簇 中 论文 
的 苹 均 出 版 年 作为 识别 能 源 领域 新 兴 技 术 的 指标 ,H. 
Small 也 采用 了 类 似 指标 。 文 本 挖掘 分 析 方法 则 采用 
更 多 能 够 揭示 文本 内 容 的 指标 ,如 SAO 结构 中 词 的 关 
系 和 变化 .与 已 知 新 兴 技术 主题 的 相似 度 比较 等 。 由 
于 引文 网 络 聚 类 方法 和 文本 挖 据 分 析 方法 能 够 根据 文 
献 的 引用 关系 或 内 容 相关 关系 构建 技术 主题 的 关系 网 
络 ,因此 也 采用 社会 网 络 分 析 的 一 些 指标 ,如 点 度 中 心 
BE .中 介 中 心 度 .结构 洞 等 ,$S， Zhang" 和 王 凌 燕 等 ” 
采用 了 这 一 类 指标 。 有 少数 学 者 基于 多 指标 进行 新 兴 
技术 主题 识别 ,如 本 Kim 等 "采用 论文 作者 数量 ,其 
刊 .专利 权 人 数量 、 论 文 或 专利 所 属 领域 等 指标 ; A 
Breitzman 等 "采用 专利 权 人 类 型 .技术 与 科学 的 关联 、 
技术 原创 性 指数 .引用 前 人 技术 情况 等 指标 ; E d 
等 "采用 簇 中 专利 授权 时 间 中 位 数 和 专利 权利 要 求 
数量 指标 。 通 过 以 上 分 析 可 知 , 现 有 研究 中 ,大 多 指标 
体系 对 新 兴 技 术 主题 特征 的 反映 不 够 全 面 ,有 进一步 
改进 和 完善 的 空间 。 


4.3 方法 有 效 性 验证 

三 类 方法 均 采 用 专家 咨询 .利用 政策 文件 或 路 线 
图 等 进行 旁证 或 与 其 它 方法 进行 比较 等 对 识别 方法 和 
指标 体系 的 有 效 性 进行 验证 ,文本 挖掘 分 析 方 法 则 开 
始 探 索 通 过 构建 训练 集 和 测试 集 ,采用 相关 评价 指标 
进行 更 加 严格 的 验证 ,但 目前 该 类 研究 数量 仍 较 少 。 
专家 咨询 方法 的 缺点 是 专家 带 有 一 定 的 主观 性 ,也 受 
专家 的 知识 范围 的 影响 。 有 学 者 利用 政策 文件 或 路 线 
图 等 进行 旁证 ,如 Y. Kajikawa 等 25 将 识别 出 的 能 源 
领域 新 兴 技 术 与 日 本 政府 机 构 绘制 的 该 领域 专家 路 线 
图 进行 对 比 , 这 种 方法 也 存在 所 识别 新 兴 技 术 主 题 的 
粗细 粒度 不 同 ,从 而 导致 与 路 线 图 不 能 完全 匹配 的 问 
题 ,日 在 评价 时 依赖 人 工 解读 。 与 已 有 研究 方法 进行 
对 比 也 是 采用 较 多 的 验证 方法 ,如 Q. Wang 将 识别 
出 的 新 兴 主 题 与 已 有 文献 中 提 及 的 新 兴 主 题 进行 对 
比 , 该 方法 可 能 存在 的 问题 是 已 有 研究 和 本 研究 对 新 
兴 主 题 的 定义 有 所 不 同 ,识别 的 主题 粗细 粒度 也 可 能 
不 同 。 
4.4 新 兴 技 术 主 题 识别 方法 展望 

基于 论文 或 专利 文献 的 技术 主题 抽取 的 准确 性 依 
赖 于 对 文献 内 容 的 准确 理解 和 分 析 , 而 目前 快速 发 展 
的 数据 挖掘 、 深 度 学 习 等 技术 可 以 应 用 于 该 问题 的 研 
究 。 近 年 来 ,一 些 基于 深度 学 习 的 自然 语言 处 理 模 型 
在 文本 语义 分 析 上 取得 了 较 好 效果 ,如 神经 网 络 语言 
模型 以 及 Google 公司 在 2013 年 推出 的 Word2Vec 模型 
通过 学 习 分 布 式 词 向 量 对 文本 进行 表示 ,利用 了 词 的 
上 下 文 信息 ,可 以 解决 数据 稀疏 .缺失 语义 表达 能 力 等 
问题 ,能够 在 一 定 程度 上 解决 共 词 网 络 聚 类 向量 空间 
模型 LDA 主题 模型 等 方法 不 能 准确 反映 词 含义 的 问 
题 ,因此 可 以 探索 这 类 方法 在 技术 主题 抽取 上 的 应 用 。 
新 兴 技 术 具 有 新 出 现 、 发 展 速度 快 、 以 高 科技 为 基 
础 市 场 潜 力 巨 大 等 特征 , 现 有 研究 的 新 兴 技 术 主 题 识 
| 指标 通常 考虑 不 够 全 面 , 仅 根 据 其 中 一 个 或 几 个 特 
EE 构建 指 标 , 笔 者 认为 应 更 加 全 面 .系统 地 考虑 可 用 于 
f 兴 技术 主题 识别 的 指标 ,再 通过 一 些 方 法 对 指标 进 
行 洲 选 ,从 而 优化 新 兴 技 术 主 题 识别 效果 。 基 于 新 兴 
技术 主题 的 内 涵 和 特征 ,并 结合 现 有 研究 ,笔者 构建 了 
包含 以 下 7 个 特征 维度 的 指标 体系 :新 颖 性 、 规 模 、 增 
长 速度 、 影 响 力 、 科 学 关联 .市场 潜力 .不 确定 性 ( 见 表 
2) ,在 以 后 的 研究 中 将 通过 实验 进行 指标 效 选 和 评价 。 

方法 的 有 效 性 验证 方面 ,有 监督 的 机 器 学 习 常用 
来 研究 分 类 问题 ,新 兴 技 术 主 题 的 识别 本 质 上 也 是 一 
种 分 类 问题 , 即 把 技术 主题 集合 划分 为 新 兴 技 术 主 题 


uu 


E 


d 


^N 


149 


& 4i xt 


$864 235 58 11 期 2020 5£6 H 


ChinaXiv 合 作 期 刊 


和 非 新 兴 技术 主题 。 因 此 可 以 考虑 事先 构建 新 兴 技 术 
主题 识别 的 训练 集 , 以 此 对 识别 指标 进行 洲 选 ,再 通过 


测试 集 验证 指标 和 方法 的 有 效 性 。 尽 管 目前 已 有 少量 


表 2 新 兴 技 术 主题 识别 指标 体系 及 其 含义 


特征 指标 


含义 


新 颖 性 [48 -491 新 闻 / 词 组 数 的 增长 率 
利 的 平均 授权 年 
施 引 专利 的 平均 授权 年 


新 词 /词组 的 出 现 和 增长 代表 新 概念 .方法 .工具 的 出 现 
平均 授权 年 越 大 ,说 明 专 利 篮 所 代表 的 技术 越 新 
施 引 专利 的 授权 年 越 大 ,表明 该 技术 近年 来 越 受 关注 


参考 专利 /论文 的 平均 授权 年 /出 版 年 。 参考 专利 或 论文 的 授权 年 或 出 版 年 越 大 ,表明 该 技术 引用 的 技术 或 科学 原理 越 新 ,更 具 新 疾 性 


规模 113,50] m 
专利 权 人 数量 
专利 数量 每 一 年 的 增长 率 
专利 权 人 每 一 年 的 增长 率 
专利 篇 均 被 引 频 次 


增长 速度 [5.50] 


影响 力 [52.30] 


专利 的 平均 权利 要 求 数 
科学 关联 [118] 专利 平均 参考 论文 数 参 
lagi [53-54] 专利 的 转化 比例 

(iic 专利 权 人 中 公共 机 构 所 占 比例 


参与 到 技术 研发 中 的 企业 或 科研 机 构 越 来 越 多 ,也 表明 该 技术 正 快速 发 


专利 数 达 到 一 定 规模 的 技术 更 有 可 能 是 新 兴 技 术 


参与 研发 的 专利 权 人 达到 一 定数 量 的 技术 更 有 可 能 是 新 兴 技 术 


专利 数量 增长 快 ,表明 该 技术 处 在 快速 发 展 阶段 


bl 


被 引 频 次 高 ,表明 该 技术 的 影响 力 大 
权利 要 求 数 大 ,表明 专利 保护 的 技术 点 多 ,质量 高 


考 的 论文 多 ,表明 该 技术 与 科学 的 关联 性 强 , 反 映 新 兴 技术 的 高 科技 特征 
新 兴 技术 具有 较 大 市 场 潜力 ,体现 在 与 其 他 技术 相 比 ,专利 转化 率 较 高 


新 兴 技术 具有 不 确定 性 ,因此 政府 投入 较 多 ,企业 投入 相对 较 少 


砚 宫 采用 这 类 方法 进行 验证 ,但 还 处 于 探索 阶段 ,今后 
人 富商 大 发 展 空间 。 

= 此 外 ,新 兴 技 术 主题 识别 的 定量 研究 方法 往往 基 
AER GU CRI AE , TRER SEREZ I d SC 
Flo 4e, Mi HR AB RT fb th HUE e SERE c XC 
bk, Du, ME Sr REATUS Jc RC e p c RUE 
CBDR EGG RURGNOL, WIUERERUE-T ACER AEGUEG AE 
析 欧 研究 较 少 ,H. Small 等 ”和 ERACEP Ji H ^ 基于 
- 引 时 间 内 全 领域 的 论文 数据 识别 出 新 兴 研 究 主题， 
并 绯 新 兴 技 术 主 题 的 识别 。 目 前 ,大 多 数 新 兴 技 术 主 
题 酌 识别 是 对 预先 确定 领域 的 回溯 性 分 析 , 而 非 侧重 
码 罗 别 新 兴 技术 的 方法 学 研究 ,- 般 把 具有 突 发 可 能 
性 的 主题 作为 实证 研究 数据 ,再 通过 一 定 方法 验证 该 
主题 具有 突 发 性 ,或 从 中 发 现 突 发 特征 最 明显 的 子 主 
题 ,严格 来 说 ,这 一 类 研究 并 非 真 正 意义 上 的 新 兴 技 术 
主题 的 识别 。 


5 结语 


通过 对 国内 外 新 兴 技 术 主题 识别 研究 的 系统 调研 
和 综合 分 析 , 本文 将 新 兴 技 术 主 题 识别 的 定量 研究 方 
法 分 为 三 类 :主题 词 或 文献 统计 方法 ;引文 网 络 聚 类 方 
法 ;文本 挖掘 分 析 方法 。 这 些 方法 在 技术 主题 抽取 、 识 
别 指 标 体系 构建 .方法 有 效 性 验证 等 方面 存在 差异 , 它 
们 各 有 优点 ,但 也 都 存在 一 定 缺陷 和 不 足 。 随 着 深度 
学 习 等 技术 的 发 展 ,在 论文 和 专利 等 文本 内 容 的 准确 
解析 技术 主题 抽取 等 方面 存在 的 问题 可 以 得 到 更 好 
的 解决 ,未 来 可 以 探索 一 些 基于 深度 学 习 的 自然 语言 


处 理 模 型 在 技术 主题 抽取 上 的 应 用 。 此 外 ,还 需要 在 
对 “新 兴 技 术 主 题 ” 的 内 涵 进 行 深入 理解 的 基础 上 , 构 
建 较为 完善 的 识别 指标 体系 ,并 构建 新 兴 技 术 主 题 的 
训练 集 和 测试 集 ,借助 有 监督 的 机 器 学 习 方法 对 新 兴 
技术 主题 训练 集 进 行 学 习 ,六 选 真正 相关 的 指标 ,再 通 
过 测试 集 对 指标 体系 和 方法 的 有 效 性 进行 更 严格 的 验 
证 。 
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SS Abstract; | Purpose/significance | Identification of emerging technology topics not only can contribute to track 
[T development of technologies, but also can capture the future development opportunities and trends of technolo- 
gies. Reviewing the quantitative methods of emerging technology topics identification and making a comparison of 
them can provide reference for an improvement of the methods. | Method/process | Firstly, concepts such as “ emer- 
ging technology" and "emerging technology topics identification" were analyzed; then qualitative and quantitative re- 
search methods of emerging technology topics identification at home and abroad were investigated , focusing on biblio- 
metrics and data mining. Quantitative methods were divided into 3 categories: keywords or documents statistical 
method, citation network clustering and text mining. Similarities, differences and shortcomings of above methods in 
the extraction of technology topics, construction of emerging technology topic identification indictors, methods verifi- 
cation were analyzed. Improvement methods are provided preliminarily. | Result/conclusion | The three types of 
methods have their own characteristics, advantages and disadvantages in the three steps of emerging technology topics 
identification, and there is room for further improvement. In the future, we can explore the use of techniques such as 
deep learning to identify technology topics accurately, and build a group of more comprehensive and systematic emer- 
ging technology topic identification indicators, as well as more rigorous method validation based on machine learning. 
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